48 小时手搓平行世界（下）：AI 并不是万能的，但父爱是

昨天我在 [女儿 3 岁生日，我花 48 小时给她手搓了一个‘平行世界’](/blog/女儿 3 岁生日，我花 48 小时给她手搓了一个‘平行世界’) 里提到，为了给女儿惊喜，我花两天时间搭建了一个数字 3D 模型。

今天想和大家聊聊，这个世界里的声音和画面，都是怎么来的。

因为我想做的，不仅仅是一个给人看的模型，而是一个能互动的网页，甚至包含一个小小的跑酷游戏。所以，除了视觉上的 3D 模型，还需要给它配上声音，布置好背景，甚至还得设置一些小障碍物。

先说画面吧。

昨天我们解决了最核心的“真人模型”。但要把场面撑起来，还需要其他的角色。比如女儿最喜欢的小猪佩奇一家，还有宝贝 JoJo。

一开始，我试图“偷懒”，直接让 Gemini 帮我生成这些形象。小猪佩奇一家倒还好说，但宝贝 JoJo 怎么生都不太对劲，试了几次效果都不理想。

索性放弃纯生成。我从 Google 上找了一张宝贝 JoJo 的全家福，然后把图片交给 AI，让它帮我把 JoJo 单独“抠”出来，并且调整成站立的姿势。这次，效果这就对了。

至于游戏里的背景、地面这些素材，处理起来就简单多了。我把想要的场景描述发给 AI，它直接就生成了对应的图片，几乎不需要怎么修改。

而在最后的“跑酷”环节，为了增加趣味性，我设计了一些气球、路障，还有需要收集的礼盒。这些小素材，我是在 iconfont 网站上找的 SVG 矢量图，直接把代码丢给 AI 里的编辑器，让它写进程序里。

有时候，AI 不一定能一步到位，但它能很好地帮你完成“最后一公里”。

画面有了，接下来是声音。这也是我觉得最有意思的部分。

整个网页的背景音乐，我按不同的场景找了三首：欢迎页面的、待机状态的，还有游戏进行时的。

比背景音乐更重要的，是“人声”。

为了让这个礼物更有温度，我们整个家庭成员包括我、妈妈和哥哥，每人对着手机录了一段祝福或者语音。

手机录出来的格式通常是 M4a，网页用不了。我也没特意下软件，直接 Google 搜了个在线转 MP3 的网站，几秒钟就转好了。

游戏里还需要一些特别的音效，比如小猪佩奇撞到障碍物时的叫声，或者加油打气的声音。这些特定的声音素材不太好找。

后来我发现了一个叫“魔音网”的配音网站，输入文字，就能生成类似小猪佩奇音色的配音。虽然也就是个大概，但在游戏里听个响，氛围感到位了就行。

所有的素材：图片、音频、模型，再加上我最初写的那份产品说明（PRD），全部打包发给 AI 编程工具。

看着屏幕上代码一行行滚动，就像看着积木被一块块自动搭起来。

虽然现在的版本在美观度上还有很多细节要调整，但看着这个小世界一点点运行起来，那种感觉还是挺奇妙的。

等我把它彻底完善好，再来和大家分享最终的成果。

在线音频剪辑： vocalremover.org

AI 配音： 魔音网

音效素材： 爱给网 Pixabay

m4a to mp3 cloudconvert.com